Estimation du paramètre de collection des modèles d'information pour la RI

نویسندگان

  • Parantapa Goswami
  • Éric Gaussier
چکیده

RÉSUMÉ. Nous explorons dans cet article plusieurs méthodes permettant, a priori, d’estimer le paramètre de collection des modèles d’information. Jusqu’à présent, ce paramètre a était fixé au nombre moyen de documents dans lesquels un mot donné apparaissait. Nous présentons ici plusieurs méthodes d’estimation de ce paramètre et montrons qu’il est possible d’améliorer les performances du système de recherche d’information lorsque ce paramètre est estimé de façon adéquate.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Texte et Représentation en Recherche d'Information

Les performances des modèles de Recherche d'Information (RI) sont for-tement liées à leur capacité à représenter le texte. Ces dernières années, portés par les succès en reconnaissance d'image et de parole, de nombreux modèles basés sur les réseaux de neurones et les représentations distri-buées des mots et phrases sont apparus. Quelques modèles ont essayé d'aborder le problème de la RI, dont u...

متن کامل

Un graphe génératif pour la classification semi-supervisée

RÉSUMÉ. Nous proposons un nouvel algorithme semi-supervisé qui combine un modèle de mélange gaussien pour modéliser localement les données, et un graphe génératif construit sur les composants du mélange pour capturer la structure globale des données. La combinaison est réalisée via un processus de propagation d’étiquettes au travers du graphe. Contrairement aux algorithmes de l’état de l’art, l...

متن کامل

Rôle de la matrice d'information et pondération des composantes dans les noyaux de Fisher pour PLSI

RÉSUMÉ. Des similarités entre documents à base de catégories sémantiques latentes et de noyaux de Fisher ont été proposées pour la première fois il y a dix ans par T. Hofmann dans le contexte du “Probabilistic Latent Semantic Indexing”, puis étendues par Nyffenegger et al. (2006). Le présent article présente une étude approfondie et une révision de ces modèles par (1) une description unifiée et...

متن کامل

Une méthode de classification supervisée sans paramètre pour l'apprentissage sur les grandes bases de données

Résumé. Dans ce papier, nous présentons une méthode de classification supervisée sans paramètre permettant d’attaquer les grandes volumétries. La méthode est basée sur des estimateurs de densités univariés optimaux au sens de Bayes, sur un classifieur Bayesien naïf amélioré par une sélection de variables et un moyennage de modèles exploitant un lissage logarithmique de la distribution a posteri...

متن کامل

Une tentative d'utilisation conjointe d'UML et d'une méthode formelle pour la modélisation de la sécurité des aéroports

RÉSUMÉ. Le projet EDEMOI 1 a pour but la modélisation de la sécurité des aéroports. Son approche passe par la production de modèles graphiques (un ensemble de diagrammes UML) destinés à être validés par les experts du domaine, et de modèles formels destinés à être vérifiés. Pour assurer la correspondance entre ce qui est validé et ce qui est vérifié, il faut établir un lien fort entre ces deux ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013